Terugblik project 202

Conference- en Public Address systemen
Bosch Security Systems

geschreven door Steven van Raalte

1: Alarmtonen luider maken, zelfs met minder vermogen

een presentatie van Steven van Raalte (Bosch Security Systems - Public Address)

Op 16 december was bij Bosch Security Systems in Breda een AES sectiebijeenkomst met een tweetal onderwerpen, waarvoor ongeveer 25 personen kwamen opdagen. De opkomst was relatief laag, misschien door de aangekondigde sneeuw, maar het enthousiasme was er niet minder om. De eerste presentatie was gebaseerd op een studie die uitgevoerd was binnen de DSP groep van Philips Research in opdracht van Bosch Security Systems.

energieverbruik
Na een korte inleiding over ontruimingssystemen in het algemeen en het gebruik van ontruimingssignalen en gesproken boodschappen, ging Steven in op een specifiek aspect van ontruimingsinstallaties: het energieverbruik.

Ontruimingsinstallaties moeten vaak ook op noodstroom (meestal accu's) kunnen werken, omdat het lichtnet in geval van een calamiteit, bijvoorbeeld brand, niet zelden wegvalt. Om de capaciteit van de accu's en de kosten daarvan binnen de perken te houden is het van belang dat de gebruikte versterkers een hoog rendement hebben, maar ook een laag ruststroomverbruik zolang ze niets te doen hebben. Dit soort installaties staat meestal permanent aan omdat ze ook een intern bewakingsysteem hebben om fouten in de apparatuur en de verbindingen ertussen te detecteren.

Om met een beperkt piekvermogen van versterkers en luidsprekers toch een luide en goed verstaanbare boodschap weer te geven, hebben we de mogelijkheid om de Crest factor van het spraaksignaal drastisch te reduceren. Dit kan gebeuren door faserotatie om het spraaksignaal symmetrischer te maken, het wegfilteren van overbodig laag, vervolgens door (multi-band) compressie en limiting te gebruiken en eventueel ook nog wat clipping toe te staan. De effecten van de handelingen werden gedemonstreerd en hier is inderdaad heel wat te winnen. Omroepen maken gebruik van dezelfde technieken om radioprogramma's luider te maken binnen de grenzen van de modulatoren van de zenders, en ook de bekende 'loudness war' bij het masteren van muziek is hier een voorbeeld van.

Alarmtonen hebben echter niet zo'n grote Crest factor, waardoor met compressie haast niets te winnen valt. Alarmtonen zijn vaak continu en hebben een relatief lage Crest factor, voor een sinus slechts 3 dB. Hier moet op een andere manier aan luidheid gewonnen worden.

harmonischen
Het blijkt dat dit mogelijk is door het toevoegen van de juiste harmonischen aan een grondtoon. De toonhoogte verandert hier niet door, de klankkleur verandert wel, maar de luidheid neemt er enorm door toe. Door nu alleen maar die harmonischen aan de grondtoon toe te voegen die ook daadwerkelijk bijdragen aan de luidheid kan de beschikbare energie goed gebruikt worden. Onderdelen van het menselijk gehoor zijn het slakkenhuis met daarin het basilair membraan. Dit membraan gedraagt zich als een array van overlappende banddoorlaatfilters (een soort spectrum analyser). De filterbandbreedte is de zogenaamde kritische bandbreedte, zodat rond waargenomen tonen kritische banden ontstaan, die breder worden voor hogere frequenties. Het blijkt dat bij gelijke geluidsdruk meerdere tonen binnen dezelfde kritische bandbreedte niet zorgen voor een toename van de luidheid in vergelijking tot een enkele toon. Tonen die meer dan een kritische bandbreedte van elkaar liggen zorgen in combinatie wel voor een toename van de luidheid. Harmonischen die al in de kritische band van een naastgelegen harmonische vallen, kunnen we dus weglaten.

Dit werd gedemonstreerd door verschillende alarmtonen weer te geven en de het blijkt dat zo'n complexe alarmtoon (grondtoon met geselecteerde harmonischen, een multi-sinus) inderdaad veel luider klinkt dan een enkele grondtoon, terwijl de schaling zo gedaan is dat de rms-waarde van beide tonen hetzelfde is.

fase
Het optellen van verschillende harmonischen bij een grondtoon levert een signaal op met een grote Crest factor als de harmonischen allemaal op fase 0 beginnen, zie het plaatje voor de eerste, tweede en derde harmonische.

Maar door de fases van de verschillende harmonischen goed te kiezen, kan het signaal ook een veel lagere Crest factor krijgen. Het opmerkelijke is dat zo'n signaal er heel anders uitziet, maar wel hetzelfde klinkt! Het gehoor is namelijk niet gevoelig voor de fases van de harmonischen zolang ze maar ieder in hun eigen kritische band liggen.

 

Het volgende plaatje toont een tweetonig signaal als sinus (boven), als multi-sinus met grote Crest factor (midden, fases van de harmonischen is 0) en als multi-sinus met lage Crest factor (onder). De middelste en onderste signalen klinken volkomen identiek en zijn gehoormatig een stuk luider dan de enkele sinus. Bij het signaal met de lagere grondtoon (rechts van de stippellijn) zijn de 9de en de 11de harmonische weggelaten omdat die ook in de kritische banden van de 8ste, 10de en 12de harmonische vallen en daardoor niet bijdragen aan de luidheid.

luidheid
De multi-sinus met lage Crest factor kan nog flink versterkt worden voordat de versterker gaat clippen, maar de RMS waarde van dit signaal is toch nog een stuk kleiner dan die van een sinus met dezelfde piek-piek waarde. Hierdoor is het afgegeven vermogen van de versterker voor deze multi-sinus lager dan voor de enkele sinus, en het opgenomen vermogen uit lichtnet of accu's ook. Je zou kunnen denken dat een blokgolf ook heel gunstig zou zijn voor wat betreft luidheid versus opgenomen vermogen, maar dat is absoluut niet zo. Een blokgolf levert wel het maximale vermogen voor een bepaalde voedingsspanning, maar neemt dus ook veel vermogen op. De luidheid van een blokgolf valt echter tegen, want ze bevat alleen de oneven harmonischen en verschillende plaatsen van het basilair membraan worden dus toch niet geactiveerd.

meetwaarde
De mogelijkheid om de Crest factor van het signaal via de fases van de harmonischen te manipuleren biedt mogelijkheden om de vorm van het signaal zo aan te passen dat een versterker optimaal gebruikt wordt. Dit geldt met name voor klasse AB en klasse G of H versterkers.

Maar het is niet alleen van belang dat alarmtonen luid klinken, maar ook dat ze als luid gemeten worden. Immers voor een installatie zal meestal een bepaalde luidheid in dBA geëist worden, die dus meetbaar moet zijn. In feite meet een dB-meter gewoon de rms-waarde van het signaal, en een toon die ontworpen is om luid te klinken maar toch een lage rms-waarde heeft, zal een lage meetwaarde opleveren. Gelukkig wordt meestal A-gewogen (dBA) gemeten en het gehoor is voor de harmonischen in de band van 1 – 4 kHz een stuk gevoeliger (evenals de dBA-meter), zodat toch nog een gemeten winst van 2 – 5 dB mogelijk is. Maar eigenlijk is aangetoond dat de meetmethode via een gewone dB- of dBA-meter niet representatief is voor de waargenomen luidheid van het signaal.

2: Een nieuw systeem voor rondzingonderdrukking

een presentatie van Chen Tchang (Bosch Security Systems - Conference)

Ook aan dit onderwerp ligt een studie ten grondslag van de DSP groep van Philips Research. De samenwerking tussen Philips Research en Bosch Security Systems stamt nog uit de tijd dat dit Nederlandse deel van Bosch Security Systems bij Philips hoorde; Bosch nam deze activiteit zo'n 6 jaar geleden over.

akoestische terugkoppeling
Conferentie en discussie systemen worden gebruikt om vergaderingen en bijeenkomsten gestructureerder te laten verlopen door de verstaanbaarheid van de sprekers te verbeteren, maar ook door faciliteiten te bieden voor bijvoorbeeld toegang- en spreektijdcontrole, simultaanvertalingen en elektronisch stemmen. De deelnemers hebben meestal een conferentie-unit voor zich op tafel staan waarin een luidspreker zit die de spreker weergeeft en waar een microfoon op zit waarin gesproken kan worden als het systeem daar toegang voor geeft. In een conferentie omgeving is het risico van akoestische terugkoppeling (rondzingen) vrij groot doordat er veel microfoons zijn op verschillende posities, die in wisselende samenstellingen aan en uit gezet kunnen worden. De gebruikers bewegen achter hun units waardoor wisselende reflecties optreden, sommige gebruikers kruipen 'in' de microfoon als ze wat willen zeggen, anderen hangen achterover in hun stoel en verwachten toch goed over te komen, in sommige landen wordt staand gesproken en is de spreekafstand tot de microfoon groot, en dan is er ook nog vaak een public address installatie om de publieke tribune van geluid te voorzien.

Een standaard methode om rondzingen te voorkomen is het uitzetten van de eigen luidspreker van een unit als de microfoon ervan aan staat, maar ook dat is niet altijd toereikend. Een verder complicatie is dat met name bij meertalige systemen veel gebruikers een hoofdtelefoon gebruiken voor hun lokale taal die niet uitgezet wordt als een gebruiker wat wil zeggen. In dat geval kan de microfoon gaan rondzingen op de open koptelefoon die heel dicht in de buurt is. Sommige politici zien in de zwanehalsmicrofoon zelfs een mooi kapstokje om hun hoofdtelefoon aan op te hangen!

rondzingonderdrukking
Een aantal standaard methodes voor rondzingonderdrukking werden genoemd: fasemodulatie om de rondgaande versterking te vereffenen, gain reductie door egalisatie en notch filters, spatiale filtering door beamvorming en adaptieve feedback control waarbij de luidspreker-microfoon koppeling weggefilterd wordt. Deze laatste methode werd vervolgens uitgewerkt.

Een adaptief digitaal filter wordt gebruikt om een zo goed mogelijke kopie te maken van het echopad van luidspreker naar microfoon en deze kopie-echo van het microfoonsignaal af te trekken. Het is echter heel lastig voor het filter om onderscheid te kunnen maken tussen het microfoonsignaal van de spreker en het signaal dat van de luidspreker komt. Dat kan echter behoorlijk worden verbeterd door een decorrelator toe te voegen in de vorm van een frequency shifter.

Voor spraak is een frequency shifter nauwelijks waarneembaar, maar voor muziek is deze ongeschikt doordat harmonische verbanden worden verstoord. Deze methode wordt door Philips en Bosch al geruime tijd gebruikt en is zeer effectief. De rondzinggrens kan zeker zo'n 9 dB worden opgeschoven. De typische verschuiving is 5 Hz.

Maar deze methode kent ook nadelen. Met name sprekers met een hoofdtelefoon ervaren modulatie van het geluid omdat ze zowel een verschoven versie horen van het geluid via de hoofdtelefoon als de gewone versie via een direct akoestisch pad. Dit leidt tot 5 Hz zwevingen. Verder treden er dicht bij de rondzinggrens vreemde akoestische bijgeluiden op doordat toch een deel van het 5 Hz verschoven signaal weer versterkt wordt en opnieuw wordt verschoven, en dan weer opnieuw, etc. De toonhoogte loopt in de galmstaartjes weg.

prewhitening filter
De uitdaging is nu om een nieuw systeem te bedenken dat deze artefacten niet kent en toch voldoende marge heeft in de rondgaande versterking.

Dit heeft geresulteerd in een uitvoering zonder frequency shifter, maar met een tweetal zogenaamde prewhitening filters (pw-blokken). Uitgangspunten hierbij zijn dat spraaksignalen kunnen worden gemodelleerd met witte ruis voor het unvoiced spraak gedeelte, en een pulstrein voor het voiced spraak gedeelte dat hierbij echter buiten beschouwing wordt gelaten. Wiskundig kan worden afgeleid dat indien de input van het adaptieve filter voldoende wit wordt gemaakt, dat dan het filter unbiased kan convergeren. De filtercoëfficiënten die door het ruisgevoede adaptieve filter zijn bepaald, worden gekopieerd naar een tweede filter die de werkelijke processing van het audio signaal doet. Een aanname bij deze methode is dat het spraaksignaal stationair wordt verondersteld in het tijdslot (10 – 30 ms) voor de systeemidentificatie. Voor conferencesystemen is dit een acceptabele aanname, maar voor public address systemen kan deze methode nog niet worden toegepast door de langere akoestische paden en galmtijden die daarvoor typisch gelden.

Ten opzichte van het systeem met de frequency shifter heeft deze methode als voordelen dat het belangrijkste audiosignaal niet wordt aangetast, de afwezigheid van modulatie- en rondzingartefacten en er wordt geen extra delay toegevoegd (een FIR frequency shifter voegt ongeveer 3 ms delay toe). Er zijn echter ook nadelen. De overdracht van de ruimte met al zijn dicht op elkaar staande piekjes wordt niet gemiddeld. Ook is het systeem minder stabiel, maar hier is gelukkig nog iets aan te doen door het gebruik van postprocessing.

postprocessing
Het blok PP is een postprocessing blok. In dit blok is een ruis- en galmonderdrukker geïmplementeerd op basis van spectrale subtractie. Hiermee wordt ruis weggefilterd in die delen van het spectrum waar geen maskering door het audiosignaal plaatsvindt. Ook wordt hierin een schatting gemaakt van het spectrum van de galmstaart en wordt de galm ook door spectrale subtractie onderdrukt.

Deze nieuwe methode levert een winst op van ongeveer 6 dB voor de rondzinggrens. Dat is weliswaar minder dan mogelijk is met een frequency shifter, maar nog steeds voldoende voor een conference systeem. Het nieuwe systeem heeft een helder en aangenaam geluid zonder de artefacten van het systeem met frequency shifter. Helaas is het nieuwe systeem nog niet toepasbaar voor muziek doordat hier geen goede ruisrepresentatie (prewhitening) van gemaakt kan worden.

Alle getoonde varianten werden gedemonstreerd en de bezoekers waren zeer te spreken over de winst die was bereikt in het systeem. Met name het effect van de ruis- en galmonderdrukker was indrukwekkend, nadat eerst al de systeemversterking ruim boven de normale rondzinggrens was geregeld.